Dilemma - a Tool to Ensure Quality of New Translations by Using Previous Ones

نویسندگان

  • Jussi Karlgren
  • Hans Karlgren
  • Paul Pettersson
  • Magnus Nordström
  • Bengt Wahrolén
چکیده

Dilemma is a tool built to aid human translators in achieving higher productivity and better quality, by presenting lexical information which is automatically extracted from previous translations. The design decisions have been based on analyses of the human translation process. We present the ideas behind the tool, and outline the functionality. The system described has been evaluated by professional translators with good results, and is now being developed further. HUMAN VS. AUTOMATIC TRANSLATION The naive view of text translation is first taking the source text, extracting its meaning, and then producing the destination text in another language, with the same meaning. Unfortunately, this simple and intuitive model leaves out some essential features of translation. First, texts in themselves arguably have no single well-determined meaning separated from their use, intended or actual. Secondly, the process of extracting a meaning from a text is not a problem that is even close to a solution. Indeed, even the representation of such a meaning is not even close to being determined in any generally useful way. Thirdly, for any intended meaning, there is a plethora of ways of expressing it in any language. In short, every text has many meanings, every meaning has many texts, and we do not know what meaning is. Translation seems to work in practice, however. People translate large amounts of documents unhampered by theoretical problems, and they often do so without difficulty. In fact, translators complain that many text types are dull and repetitive so that their work becomes mechanical, making translation sound like a prime candidate for automatization. And although translation has in fact been a target for computerization since the fifties, machine translation has not made the impact on the translation community that machine translation researchers have hoped for and still hope for. In Martin Kay's words: “History provides no better example of the improper use of computers than machine translation”.1 The reason for this is mainly that machine translation efforts have been directed towards the wrong goal: building a completely automatic translation system. From the theoretical standing point outlined above, building an system to produce translations automatically from one human language to another is clearly a technologically risky project. FAHQGPMT Fully Automatic High Quality General Purpose Machine Translation is not close to being a reality. In practice, to build useful tools, the way is to relax some of the specifications of the FAHQGPMT project. This can be done in several ways. By relaxing the GP general purpose goal we get highly specific systems, which may be successful in their domain, if the knowledge structure of the domain is restricted enough for formalization or the language restricted enough for heuristics to be useful.2 By relaxing the HQ High Quality goal we get systems that produce crude translations, which 1 Martin Kay, 1980. 2 An example of a successful domain-specific system is the Meteo system for French-English weather report translation, described by B. Thouin, 1982; a recent research system based on domain-specificity and closeness of source and target languages is the SLT system for English-Swedish air travel information queries, developed by SICS, Telia Research, and SRI International, described by Manny Rayner et al, 1993. may be good enough for a specific purpose: as executive overviews, or as a base for decisions on whether to translate manually. And finally, by relaxing the FA Fully Automatic goal, we may get systems which produce raw translations for further manual work.3 I need a flight leaving Pittsburgh next Monday arriving in Fort Worth before ten a m. jag behöver alla flygningar från pittsburgh nästa måndag som anländer till fort worth före klockan tio på morgonen jag behöver en avgäng från pittsburgh nästa måndag, som mäste komma fram till fort worth före tio jag behöver en avgång från pittsburgh nästa måndag, som ankommer fort worth före klockan tio jag behöver en avgång från pittsburgh till fort worth nästa måndag som anländer före tio jag behöver en biljett från pittsburgh framme i fort worth innan tio nästa måndag jag behöver en flight från pittsburgh nästa måndag som anländer i fort worth före tio på förmiddagen jag behöver en flight från pittsburgh nästa måndag till fort worth som är framme före tio på morgonen jag behöver en flight från pittsburgh nästa måndag, och vill vara framme i fort worth före tio på morgonen jag behöver en flight från pittsburgh nästa måndag, som är framme i fort worth före klockan tio jag behöver en flight nästa måndag från pittsburgh som ankommer till fort worth före tio på kvällen jag behöver en flight som avgår från pittsburgh nästa måndag och som är framme i fort worth före tio på förmiddagen jag behöver en flight som lämnar pittsburgh nästa måndag och som anländer till fort worth före tio på morgonen jag behöver en flyg som åker från pittsburgh nästa måndag och kommer fram till fort worth före tio jag behöver en flygning som lämnar pittsburgh kommande måndag och anländer i fort worth före tio på morgonen jag behöver en flygning som lämnar pittsburgh nästa måndag och anländer till fort worth innan tio på morgonen jag behöver en flygning som lämnar pittsburgh nästa måndag och kommer fram till fort worth före klockan tio jag behöver en flygresa som avgår från pittsburgh nästa måndag och anländer i fort worth innan klockan tio på förmiddagen jag behöver en flygtur från pittsburgh nästa måndag som kommer till fort worth före klockan tio jag behöver en flykt lämnande pittsburgh nästa måndag anländande i fort worth före tio a m jag behöver en förbindelse som går från pittsburgh på måndag och är i fort worth innan tio jag behöver en tur från pittsburgh nästa måndag, så att jag är framme i fort worth före tio på förmiddagen jag behöver en tur som lämnar pittsburgh nästa måndag som som kommer till fort worth före klockan tio jag behöver ett flyg från pittsburgh nästa måndag som anländer i fort worth före klockan tio jag behöver ett flyg från pittsburgh nästa måndag som är framme i forth worth innan klockan tio jag behöver ett flyg från pittsburgh nästa måndag som är i forth worth före klockan tio på morgonen jag behöver ett flyg från pittsburgh till forth worth nästa måndag som kommer fram före klockan tio jag behöver ett flyg med avgång från pittsburgh nästa måndag och som anländer i fort worth före tio jag behöver ett flyg som avgår från pittsburgh nästa måndag och som ankommer fort worth före klockan tio på förmiddagen jag behöver ett flyg som lämnar pittsburgh nästa måndag, och som anländer i fort worth före tio på förmiddagen jag behöver ett plan från pittsburgh på måndag som kommer fram till fort worth före tio på förmiddagen jag behöver ett plan från pittsburgh på måndag som kommer till fort worth före tio jag behöver ett plan som lämnar pittsburgh nåsta måndag och kommer fram i fort worth innan tio på förmiddagen jag behöver flyga från pittsburgh nästa måndag med ett flyg som anländer i fort worth före klockan tio på förmiddagen jag behöver flyga från pittsburgh nästa måndag och komma fram till fort worth före tio på morgonen jag behöver flyga från pittsburgh nästa måndag och ska anlända i fort worth före klockan tio på förmiddagen jag behöver flyga från pittsburgh på måndag och komma fram till fort worth före tio på morgonen jag behöver flyga från pittsburgh på måndag och vara framme i fort worth före klockan tio jag behöver åka från pittsburgh till fort worth så att jag är framme före tio jag behöver åka mellan pittsburgh och fort worth nästa måndag och vara framme före klockan tio jag måste flyga från pittsburgh nästa måndag så att jag är framme i forth worth före klockan tio jag måste flyga från pittsburgh på måndag och vara i fort worth före tio jag ska åka från pittsburgh nästa måndag och vara i fort worth innan (klockan) tio på jag ska åka från pittsburgh till fort worth på måndag och måste vara framme före klockan tio på morgonen jag skulle behöva en flight från philadelphia nästa måndag som anländer i fort worth före tio på morgonen jag skulle behöva en flight från pittsburgh nästa måndag som kommer fram till fort worth före klockan tio jag skulle vilja flyga från pittsburgh nästa måndag, och vara framme i forth worth innan klockan tio på kvällen jag skulle vilja flyga från pittsburgh nästa måndag, och vara framme i forth worth innan klockan tio på kvällen jag söker en flight till pittsburgh nästkommande måndag, som beräknas vara framme före klockan tio på morgonen jag vill flyga från pittsbugh på måndag och komma till fort worth före tio (på förmiddagen) jag vill flyga från pittsburgh nästa måndag med ankomst till fort worth före klockan tio jag vill flyga från pittsburgh nästa måndag och vara framme i fort worth innan tio jag vill flyga från pittsburgh till fort worth nästa måndag före klockan tio jag vill flyga från pittsburgh till fort worth nästa måndag med ankomst före tio på förmiddagen jag vill få en flygning på måndag från pittsburgh till fort worth som är framme före tio jag vill ha en avgång från pittsburgh nästa måndag som anländer till fort worth innan tio på morgonen jag vill ha en flight från pittsburgh nästa måndag som anländer i fort worth före klockan tio jag vill ha en flight som går från pittsburgh måndag och anländer fort worth t före tio jag vill ha en flight som går från pittsburgh nästa måndag och anländer till fort worth före klockan tio på förmiddan jag vill ha en flygning från pittsburgh på måndag så att jag är i fort worth före klockan tio jag vill ha en tur från pittsburgh som kommer fram före klockan tio i fort worth nästa måndag jag vill ha ett flyg från pittsburgh nästa måndag som anländer till fort worth före tio på förmiddagen jag vill ha ett flyg från pittsburgh nästa måndag, som är framme i fort worth före klockan tio på morgonen jag vill lämna pittsburgh nästa måndag och vara i fort worth före tio på förmiddagen jag vill resa från pittsburgh till fort worth på måndag så jag är framme fore tio på morgonen jag vill åka från pittsburgh nästa måndag och anlända till fort worth senast klockan tio jag vill åka med ett flyg som lämnar pittsburgh kommande måndag och som anländer i fort worth före klockan tio på morgonen jag önskar ett plan från pittsburgh som anländer i fort worth före tio nästa måndag behöver jag flyga från pittsburgh till fort worth så att jag anländer före klockan tio Figure 1: Divergence in translation. This paper describes the Dilemma prototype, which by contrast to the above is not a translation system at all, but a translation aid system.4 Dilemma is built to alleviate some quality and productivity problems, which will be outlined below, and it is built to be maximally useful through the entire translation process, as it is understood today. QUALITY AND CONSISTENCY IN MANUAL TRANSLATION One of the essential and most time-consuming tasks of translation is establishing terminological correspondences where none exist before. This task will be made easier if the translator has recourse to previous translations, where such correspondences already have been established and used. Without such help, translation will show considerable variation, as can be shown in the example in Figure 1. It shows the not very complex sentence “I need a flight leaving Pittsburgh next Monday arriving in Fort 3 Hans Karlgren, 1987. 4 “Computer Aids in Translation” by Hans Karlgren, 1981, was published after a FID workshop on language technology. Worth before ten a m” being translated into about seventy different sentences by the same number of subjects.5 As is evident from the figure, lexical variation, for instance for the term “flight” accounts for much of the divergence. “Flight” has been translated into “flight”, “flygning”, “flyg” ≈ flight, “avgång” = departure, “biljett” = ticket, “flygresa”, “flygtur” = air trip, “förbindelse” = connection, “tur” = trip, “plan” = plane, and about as many verbal constructions (“I need to fly to ...”). While this sort of variation is of little or no importance in isolated examples such as this one, in technical texts and in legal text it has considerable import. In the Dilemma project, which was prompted by the needs of legal translation where quality, especially on a terminological level, cannot be compromised, the system is designed to aid the user in maintaining terminological consistency across several translations, by making previously established correspondences available to the translator.6 THE TRANSLATION PROCESS AND ITS TOOLS Producing actual text is a smaller proportion of the translation process than may be realized at first. Empirically, about the same proportion of work will need to be put in each of the following three stages: preparation, text production, and verification, reminiscent of the person-time breakdown of software development.7 Each of the stages has its specific problems, but some of the work steps are similar throughout. In the Dilemma project we have focused on building a tool that will be useful through the entire process, for some tasks, in each of the three stages. PREVIOUS TRANSLATIONS AS A KNOWLEDGE SOURCE A typical question for a translator to ask in the most noticeable phase of the translation process, when producing actual text, is how a word or phrase has been used or translated in previously processed texts. This is the question Dilemma is designed to answer. The question also has corollaries in the other phases. In the preparation and proofreading phases, a translator or editor scans through the text for words and phrases that need to be looked up, resolved, or treated specially. Dilemma is intended as a complement to the tools a translator has recourse to today: Dilemma aids the translator in establishing terminological correspondences and retrieving recently established ones: Dilemma is not intended as a replacement to dictionaries or term banks. Dilemma is a fall-back tool for the numerous occasions when dictionaries do not suffice. As an example, Dilemma is not intended to aid the translator translate common words such as forms of the word “be”, nor is to be expected the Dilemma will show its greatest usefulness when translating words specifically established in a domain, easily found in term banks: “glaucoma”, “sociolect”, “polymer”. Dilemma will be most useful when trying to translate sentences such as “... services provided by small and medium enterprises in the member states”, with a large number of words where dictionaries are of little or no use. 5 Jussi Karlgren et al, 1993. 6 Hans Karlgren, 1981. 7 Frederick Phillips Brooks Jr. 1975. Bi-texts – the Data At Hand The data Dilemma uses – as do human translators – are previously translated texts in the same domain as the text at hand. We call an aligned pair of source and target text a bitext.8 The general idea is to extract terminological information from bitexts, in order to maintain consistency in translation which often, e.g. in technical and legal text, is a quality criterion and to reduce the decision load of the translator, which always is a productivity criterion. Dilemma takes as its input aligned bitexts: for the previously translated texts to be useful, their elements must be paired . Aligning texts is non-trivial; we will not discuss alignment further here, but refer to some of the available publications on the problem.9 For Dilemma, we use an alignment system that will align any pair of texts reasonably successfully. Using previuously translated texts as a knowledge source naturally presupposes the existence of a sizeable body of bitext to analyze. This is the case for technical documentation, where new versions of text may be very similar to previous releases, and for legal translation, e.g. in the translation of European Union legal texts where successively, a large text database of a legal domain builds up. When the two texts are aligned, correspondences between counterwords are established.10 For this purpose, Dilemma uses an association function as shown in Figure 2: a weighted sum of measures of agreement of word position, relative frequency of occurrence, and, tentatively, word length. Pairs of terms with a high association value are candidate counterwords, and potential translations of each other.11 The weighting of the parameters is determined after text-genreand language-pair-specific experimentation. Word length, for instance, did not improve the results when translating between Swedish and English, which is the language pair Dilemma is currently applied in; the relative importance of word length may improve if language pairs where the word orders differ significantly are considered. Morphological category of the terms considered is a potentially useful knowledge source as well: we are currently calculating the benefits of it. Dilemma, by design, is not intended to be used to look up commonly occurring words: the only categories Dilemma is expected to be useful for is for content words. P ( S , T ) = W p o s • T p o s + W s t a t • T s t a t + W t o t • T t o t Figure 2: The association function between source word S and target word T. Parameters considered are the relative position in the aligned string segment, occurrence statistics in the segments they cooccur in, and occurrence statistics for the entire

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارزیابی کیفیت خدمات کتابخانه‌های دانشگاه علوم پزشکی تهران از دیدگاه کاربران و کتابداران: با بهره‌گیری از مقیاس لایب‌کوال

Introduction: Nowadays, LibQual scale as a new tool ,measures expectations more efficiently than the traditional ones. The present study aims to compare the viewpoints of students and librarians at Tehran University of Medical Sciences to determine the quality of library services with LibQual model, Methods: The present study was an analytical survey. Method. LibQual questionnaire was used for ...

متن کامل

The Use of Data Envelopment Analysis in the Design of Internet Networks to Ensure the Quality of Service

Choosing a superior Internet network by users or providing a desirable Internet network by ISPs is always one of the important decision issues in this area. Choosing a unique optimal network from among the best networks is still a big challenge. The purpose of this paper is to use the data envelopment analysis (DEA) decision-making technique to evaluate the existing Internet networks in order t...

متن کامل

Manipulation As an Ideological Tool in the Persian Translations of Ervand Abrahamian’s The Coup: A Multimodal CDA Approach

The present Critical Discourse Analysis (CDA) study aimed to explore the probable ideological manipu- lations exerted in three translations of an English political book entitled The Coup by Ervand Abraha- mian. This comparative qualitative study was conducted based on Farahzad‘s three-dimensional CDA model. The textual, paratextual, and ...

متن کامل

Examining the Translations of Forough Farrokhzad’s Selected Poems by a Native and a Non-Native Speaker Using Vinay and Darbelnet’s Model

This study was a Persian-English comparative translation investigation on the selected poems of Forough- Farrokhzad, an influential contemporary Iranian poet. Two English translations were analyzed: one by a native Persian speaker, Sholeh Wolpé, an Iranian poet and translator, and the other by a non-native Persian speaker, Jascha Kessler, an American poet, writer and translator. The trans...

متن کامل

Investigation of Carbon Fiber Reinforced Polymer Composite Welding with a New Tool in Friction Stir Welding Method

Application of thermoplastic materials has increased dramatically in recent decades due to its recyclability, low density, resistance to chemical changes. The friction stir welding process is one of the new methods of solid state welding, which has recently undergone a significant improvement. In this research, using a new tool Made of plain carbon steel st37 in friction stir welding and low co...

متن کامل

TT 2 - TransType 2 ( IST - IST - 2001 - 32091 )

MAHT systems do not attempt to produce target texts without the intervention of the human translator but to help him/her in achieving highe r productivity rates while increasing the final quality. The first goal is commonly achieved by building a translation memory, a (usually large) base of source-totarget text fragments that the system tries to employ when newly (though similar) source text i...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 1994